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摘 要 : 为 了 能 够 及 时 了 解 Spark 环境 下 经 典 聚 类 算法 K-means 的 最 新 研究 进展 ， 把 握 K-means 算法 当前 的 研究 热 
RETA; 针对 K-means 算法 的 初始 中 心 点 优化 研究 进行 综述 。 首 先 介绍 了 内 存 计 算 框 架 Spark 和 K-means 算法 ， 
并 分 析 了 K-means 算法 聚 类 不 稳定 性 的 成 因 和 影响 ， 其 目的 在 于 指出 优化 K-means 算法 的 重要 性 。 详 细 介 绍 了 目前 

在 Spark 环境 下 优化 K-means 初始 中 心 点 的 主要 方法 和 最 新 研究 现状 ， 并 展望 了 K-means 初始 中 心 点 优化 问题 的 未 

来 研究 方向 。 
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Survey of optimization on K-means algorithm in Spark 


Xing Yanni, Qian Yurong, Nan Fangzhe, Zhao Jingxia 
(College of Software, Xinjiang University, Urumqi 830046, China) 


Abstract: In order to understand the latest research progress of the classical clustering algorithm K-means in Spark 
environment, and grasp the current research hotspots and directions of K-means algorithm, this paper reviews the initial 
center point optimization research on K-means algorithm. Firstly, it introduces the memory computing framework Spark and 
K-means algorithms, and analyzes the cause and effects of clustering instability of K-means algorithm, which aimed to point 
out the importance of optimizing K-means algorithm. And it introduces the main methods and the latest research status of 
optimizing the initial center point of K-means in Spark environment in detail, and also discusses the future research trends in 
initial center point optimization of K-means. 
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0 引言 计算 的 概念 。Spark 采用 弹性 分 布 式 数据 集 O1 (resilient 
= distributed datasets, RDD) 数据 结构 将 算法 的 中 间 结 果 保 存 
K-means 作为 机 器 学 习 叫 迭代 吧 类 算法 中 的 一 种 经 在 内 存 中 ， 使 其 更 适用 于 反复 迭代 运行 的 应 用 程序 ， 如 交互 
单 的 算法 ， 在 数据 挖掘 外 和 模式 识别 方面 得 到 了 广泛 应 用 。 式 数据 挖掘 和 机 器 学 习 算 法 ， 并 通过 数据 集 血 统 (lineage) 
由 于 K-means 算法 运行 时 初始 聚 类 中 心 点 和 复数 的 不 确定 ”58 和 检查 点 机 制 包 实现 了 系统 容错 ， 解 决 了 迭代 算法 在 
© 性， 使 聚 类 结果 存在 着 很 大 的 不 稳定 性 ， 以 致 于 算法 处 理 数 ” Hadoop 下 不 断 进行 磁盘 访问 而 造成 的 性 能 损失 问题 。 由 于 
t 据 时 会 出 现 准确 率 降 低 、 收 敛 速度 慢 等 问题 ,特别 是 近年 来 ， Spark 能 够 部 署 在 通用 平台 上 ， 有 可 靠 性 〈reliable)、 可 
CS 随 着 全 球 计算 机 和 信息 技术 的 迅猛 发 展 ，K-means 在 处 理 规 扩展 性 (scalable )、 高 效 性 (efficient)、 低 成 本 (economical) 

模 日 益 增 长 的 数据 B 时 ， 聚 类 效果 不 佳 和 算法 效率 低下 等 缺 ”等 优点 00， 目 前 已 被 广泛 应 用 于 大 规模 数据 处 理 过 程 。 
点 表现 得 更 加 明显 ， 无 法 满足 实际 大 数据 场景 下 应 用 需求 。 为 支持 不 同 应 用 场景 下 的 大 数据 处 理 ，Spark 已 经 发 展 
忆 此 在 大 数据 环境 下 ， 针 对 K-means 算法 的 初始 聚 类 中 心 点 ”成 为 包含 众多 子 项 目的 大 数据 计算 平台 ， 如 图 1 所 示 ， 包 括 
AE 很 多 学 者 首先 在 K- -means 算法 中 使 用 各 类 改进 算 了 基于 Spark 核心 组 件 的 可 扩展 机 器 学 习 函 数 库 ML Iib ?1, 
法 优化 其 中 心 点 选取 过 程 ， 以 减少 算法 达 代 次 数 ， 提 高 收敛 。 实现 了 基于 RDD 的 K-means 算法 ， 并 且 初 始 中 心 选取 采用 
速度 和 准确 性 ， 同 时 基于 Spark[35 内 存 计算 框架 ， 进 一 步 提 了 K-means 算法 03, 然而 MLlib 中 的 K-means 
高 了 算法 处 理 大 规模 数据 的 效率 以 及 对 大 数据 的 适应 能 力 。 改变 ， 在 执行 过 程 中 ， 仍 存在 大 量 不 必要 的 距离 计算 ， 影 响 
本 文 详细 介绍 了 K-means 算法 的 几 种 改进 方法 ， 以 及 其 在 。 算法 的 运算 效率 。 因 此 基于 Spark 的 K-means 算法 并 了 ne 
Spark 环境 下 的 并 行 化 现状 。 05 研究 仍 在 进行 中 。 
in 图 1 中 Spark Core 是 Spark 生 态 系统 的 核心 ,Spark SQL US! 

1 Spark 内 存 计算 框架 和 Sharkt 支 持 结构 化 数据 SQL 查询 与 分 析 的 查询 引擎 
Spark 是 由 Berkeley 的 AMPLab 于 2009 年 提出 的 一 种 MLbase 提供 了 机 器 学 习 功 能 的 系统 , MLlib 为 底层 的 分 布 式 
Scala 语言 实现 的 大 数据 计算 框架 ， 既 兼容 了 Hadoopt 中 机 器 学 习 库 ， 还 有 并 行 图 计算 框架 GraphX0s、 流 计算 框架 
MapReducet"1 的 可 扩展 性 和 容错 性 等 优点 ， 同 时 引入 了 内 存 Spark Streaming091]、 内 存 分 布 式 文件 系统 Tachyon 及 资源 管 
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理 框 架 MESOSC9 等 子 项 目 ， 这 些 子 项 目 在 Spark 上 层 提 供 


了 更 高 层 、 更 丰富 的 计算 范式 。 


Spark 
Streaming 


E» 
Spark Core 
本 地 
au 
图 1 Spark 生态 系统 


Fig.1 Spark ecosystem BDAS 
行 计算 是 指 同时 使 用 多 个 计算 资源 来 解决 一 个 大 型 复 
杂 的 计算 问题 的 方式 。 在 Spark 中 实现 算法 并 行 化 40820 过 程 
如 图 2 所 示 ， 首 先 通 过 将 一 个 任务 分 解 为 多 个 子 任务 ， 然 后 
将 其 分 配给 不 同 的 处 理 节 点 ， 各 个 处 理 节 点 之 间 相 互 协同 ， 
并 行 地 执行 子 任 务 ， 最 终 将 所 有 子 任 务 的 结果 合并 为 最 终结 
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图 2 Spark 框架 并 行 模型 
Fig.2 Spark parallel model 


2 K-means 算法 概述 


2.1 K-means 算法 

K-means 算法 2( 也 称 为 K- 均 值 ) 是 1967 年 由 MacQueen 
首次 提出 的 ， 如 今 它 已 成 为 一 种 经 典 聚 类 算法 局 ， 被 广泛 应 
用 于 数据 挖掘 和 模式 识别 中 。K-means 算法 是 一 种 无 监督 学 
习 ， 同 时 也 是 一 种 基于 划分 的 聚 类 算法 ， 即 需 预 先 指定 聚 类 
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空间 中 数据 点 X 和 中 心 点 C 之 间 的 欧式 距离 则 定义 为 


dist, exo =g) (1) 


HP: n ÆR, xoc 分 别 是 X 和 C 的 第 i 个 属性 值 。 

另外 ， 通 常 使 用 SSE (sum of squares due to error, 1x25 
平方 和 ) 来 度量 聚 类 结果 质量 ， 是 K-means 算法 的 目标 函数 
为 


IT 
y 


n k 2 
SSE-» >, 2, (d(c,%)) (2) 


其 中 : d 是 欧 氏 空间 中 两 个 点 的 欧 氏 距离 ，k 是 艇 的 个 数 ，x 
是 数据 点 ，c; 是 第 i 个 艇 的 中 心 ，5; 表 示 第 i 个 簇 中 数据 点 的 
集合 。 在 K-means 算法 运行 过 程 中 ， 由 于 目标 函数 的 非 凸 性 
2， 初始 聚 类 中 心 点 的 随机 选取 会 形成 许多 不 同 的 局 部 最 优 
解 ， 无 法 达到 全 局 最 优 ， 使 得 算法 更 易 陷 入 局 部 最 优 25。 
K-means 算法 的 计算 复杂 度 为 OtKm), RB. K, n, 
m 分 别 指 迭 代 次 数 、 簇 类 个 数 、 特 征 维 数 和 待 分 类 的 数据 规 
模 , 通常 ,2 K,n<<m ,由 此 可 见 处 理 大 规模 数据 集 时 , K-means 
时 间 复 杂 度 接近 于 线性 。 
2.2 K-means 算法 改进 
上 述 可 知 ，K-means 算法 原理 较为 简单 ， 收 敛 速度 快 
P9， 然 而 在 实际 应 用 时 , K-means 算法 表现 出 了 一 些 局 限 性 ， 
在 运行 时 需 指 定 初始 参数 ， 如 簇 类 个 数 k、 初 始 聚 类 中 心 等 ， 
这 些 参 数 初 始 值 的 设置 对 聚 类 效果 影响 巨大 。 
针对 这 些 局 限 性 ， 国 内 外 学 者 提出 了 许多 改进 K-means 
算法 的 策略 , 如 使 用 网 格 优化 2 、 残 差分 析 P8、Hash 算法 291、 
莉 火 虫 优化 60、 基 于 密度 和 距离 改进 60 等 优化 方法 预先 确定 
初始 聚 类 中 心 点 ,解决 K-means 随机 选取 初始 中 心 点 带 来 的 
不 稳定 性 问题 ; 使 用 余弦 相似 度 度量 数据 间距 离 B3、 基 于 - 方 
差 的 聚 类 评估 标准 B3l 等 方法 改善 K-means 算法 的 聚 类 效果 ， 
提高 了 K-means 算法 的 准确 性 和 稳定 性 ; 还 有 研究 提出 了 一 
种 精确 减少 采样 K-means 算法 64, 可 有 效 处 理 不 平衡 数据 集 ; 
然而 这 些 研究 仅 针对 K-means 算法 本 身 进行 优化 ， 未 借鉴 当 
前 流行 的 大 数据 计算 框架 的 优势 ， 难 以 满足 对 大 规模 数据 高 
效 聚 类 的 需求 。 
近 几 年 流行 的 大 数据 计算 框架 有 Hadoop、Spark、Flink63 
等 , 现 有 研究 如 文献 6637 在 Hadoop 下 并 行 化 实现 了 K-means 
算法 ， 文 献 B8 在 Flink 上 改进 了 K-means 算法 ，Kusuma IP?! 
结合 Spark 的 RDD 数据 结构 实现 了 K-means 对 大 规模 数据 
的 聚 类 ， 或 将 K-means 聚 类 分 析 的 过 程 直接 放 在 Spark 环境 
下 进行 6 和 0， 这 些 研究 都 提高 了 K-means 处 理 大 数据 数据 的 


数 以 及 中 心 ， 不 断 更 新 聚 类 中 心 ， 逐 步 降低 目标 函数 的 误差 
值 ， 当 目标 函数 值 收敛 时 ， 得 到 最 终 聚 类 结果 。 

K-means 是 通过 度量 数据 间 的 距离 对 数据 进行 分 类 的 一 
种 算法 ， 最 终 使 得 相似 程度 高 的 数据 都 处 在 同一 个 簇 内 ， 相 
似 程度 低 的 数据 则 处 于 不 同 的 簇 中 ， 算 法 步骤 如 下 所 示 : 

a) 从 给 定数 据 集中 随机 选取 大 个 数据 对 象 作 为 初始 聚 类 
中 心 C(C CC) ; 

b) 对 于 数据 集中 的 每 个 数据 X ， 计 算 其 到 初始 聚 类 中 心 
C 的 距离 ， 找 到 离 它 最 近 的 初始 聚 类 中 心 C ， 并 将 其 分 配给 
Cj; 所 标明 的 类 别 ; 

c) 更 新 每 个 类 别 的 中 心 5; 将 其 作为 该 类 别 的 所 有 样本 的 
均值 ; 

gd 不断 兴 代 以 上 过 程 直 到 每 个 中 心 不 再 变化 或 达到 迭代 
次 数 为 止 。 
在 K-means 算法 过 程 中 ,数据 之 间 的 相似 程度 常 由 欧 几 
里 德 距离 来 表示 。 如 在 多 维 空间 中 , 每 个 数据 都 是 n 维 向 量 ， 


效率 ; 也 有 不 少 学 者 利用 K-means 算法 简单 易 实现 的 优点 对 
比 了 大 数据 计算 框架 的 优势 中 431， 证 明了 Spark 平台 在 机 器 
学 习 迭 代 式 计算 方面 的 优势 ， 因 此 ， 将 改进 后 的 K-means 算 
法 应 用 到 Spark 中 并 结合 其 内 存 计算 优势 ， 是 未 来 很 有 价值 
的 一 个 研究 方向 。 本 文 主要 总 结 了 在 Spark 环境 下 针对 
K-means 算法 初始 中 心 点 的 改进 研究 现状 。 


3  &T Spark 的 K-means 算法 优化 策略 


大 数据 环境 下 ，K-means 算法 随机 初始 中 心 点 会 对 聚 类 
结果 的 准确 性 以 及 算法 的 收敛 速度 产生 较 大 的 影响 ， 因 此 ， 
针对 随机 初始 中 心 点 产生 的 不 稳定 性 问题 ， 目 前 有 大 量 研究 
尝试 解决 该 问题 。 

首先 大 多 数 研究 人 员 在 Spark 下 并 行 化 K-means 算法 ， 
其 基本 过 程 如 图 3 Hrs. 分 为 map. combine 和 ReduceByKey 
三 个 阶段 。 


201901.00067V1 


chinaXiv: 


录用 定稿 HR, F: 
Map 过 程 Combine 过 程 ReduceByKey 过 程 
开始 
p 
市 一 中 心 点 的 
的 一 一 汇总 局 部 聚 类 结果 
+ 
计算 每 个 数据 到 一 一 一 - x 
[三 一 站 中心 点 的 距离 计算 同一 中 心 点 计算 距离 并 更 新 聚 
的 数据 之 和 类 中 心 点 
* 
选择 距离 最 小 的 
中 心 点 
局 部 聚 类 结果 
判断 是 否 收敛 
中 心 ， 数 据 对 象 > 
结束 


图 3 Spark 实现 K-means 算法 流程 图 


Fig.3 Flow chart of K-means Algorithm on Spark 


基于 上 述 基础 ， 


通过 使 


研究 人 员 对 K-means 算法 本 身 的 原理 进 
化 ， 从 而 在 提高 算法 运行 效率 的 同时 提高 1 
对 数据 集 划 分 的 方法 、 预 
引入 全 局 优化 思想 的 方法 等 策略 来 人 


DAREI, FÉ 


VÉETEA 


介绍 着 


3.1 


据 进 行 划 分 。 


集 并 转换 成 RDD 格式 , TRES ECT ROT 
无 法 充分 利用 Spark 平台 的 内 存 计 


但 若 随机 划分 数据 集 ， 可 能 会 增加 


数 ] 
叉 树 划分 有 可 能 会 
同 ， 影 响 并 行 化 


(K-demension tree)! 
K-means 初始 中 心 点 


法 效率 影响 颇 大 ， 有 研究 人 员 使 
数据 空间 划分 为 单元 格 &9 等 对 数据 集 进行 划分 ， = 
使 划分 后 的 数据 集 与 原 数据 集 的 分 布 不 


JZW 


mE, EE 
聚 类 初始 中 心 点 的 方法 和 
化 K-means 算法 初始 中 
种 优化 方法 。 
基于 数据 划分 的 K-means 改进 策略 

K-means 算法 在 Spark 下 并 行 


时 ， 若 直接 读 取 整 个 数据 


ERETRIA RDD 过 大 


| 算 特性 ， 因 此 有 必要 对 数 


算法 的 迭代 次 数 对 算 


Ju x pts, 


发 现 使 用 


将 


Spark 环境 下 K-means 初始 中 心 点 优化 研究 综述 


K-means 算法 ， 充 分 继承 了 Spark 的 内 存 计算 和 良好 容错 性 
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良好 。 


优点 ， 同 时 提高 了 算法 运行 效率 ， 特 别 是 在 大 数据 集 上 表现 


v 


从 HDFs 中 读 取 数 据 


将 数据 按 给 定数 目 进行 
划分 并 分 发 给 各 节点 


Y Y Y 
K-means K-means K-means 
算法 算法 算法 
X 
Y 
汇总 合并 局 部 聚 类 结果 
结束 
X4 ”基于 kd 树 的 并 行 化 K-means 流程 图 


Fig.4 Flow chart of parallelized K-means on Kd-tree 
3. ”基于 预 聚 类 算法 的 K-means 算法 改进 
K-means 算法 过 度 的 依赖 初始 中 心 点 ， 很 容易 导致 聚 类 


结果 陷入 局 部 最 优 ， 在 


PSI 


并 且 会 Li 


多 算法 效率 低下 的 问题 ， 因 此 ， 一 部 分 学 者 采 / 


掉 对 大 规模 数据 时 ， 此 缺陷 更 加 明显 
1 


RK. TH 


算法 聚 类 效果 和 效率 ， 由 于 Kd 树 
人 可 以 按 数 据 集 分 布 情况 划分 数据 ， 对 


点 选择 和 并 行 化 都 有 很 大 益处 ， 因 | 


TH) 


泛 应 用 。 

Kd 树 是 一 种 用 于 分 割 多 维 数据 空间 的 数据 结构 ,其 中 k 
指数 据 空间 的 维 数 ， 其 构建 的 基本 思想 为 时, 根据 数据 分 布 
密度 情况 ， 分 别 计算 数据 每 个 维度 上 的 方差 值 ， 同 时 考虑 左 


右 子 树 的 平衡 性 ， 选 取 分 割 维度 数据 的 中 值 进行 分 割 ， 不 断 
迭代 进行 分 割 过 程 直到 算法 满足 和 迭 


据 ， EE 其 维 


Kd 树 构建 过 程 在 低 维 数据 中 表现 
于 其 维度 的 增加 ， 会 出 现 算法 怕 


Spark 


多 个 计算 节点 上 进行 ， 充 分 利用 


力 共同 构建 Kd 
Kd 树 构建 的 时 
基于 上 述 下 
18 28 77 If 


树 ， 
间 消 
究 ， 


m, d 

初始 

密集 的 问题 。 
当前 已 有 的 


1 所 表现 出 的 优势 ， 可 
取 初 始 中 心 点 的 缺陷 ， 改 进 
H Kd 树 对 数 ] 


有 效 缓解 了 


耗 ,进一步 提高 Kd 树 对 大 数据 的 适应 性 。 


民 次 数 为 止 。 
良好 , 但 面 对 大 规模 数 
下 降 的 现象 。 


能 急剧 


内 存 计 算 框架 通过 分 解 Kd 树 构 建 过 程 , 将 任务 分 配 到 
Spark 中 每 个 节点 的 计算 能 
算法 性 能 下 降 问 题 ， 减 少 了 


考虑 到 Kd 树 多 维 


空间 数据 的 分 割 以 


究 如 文献 [49,50] 首 先 使 用 
集 各 个 区 域 的 数据 密度 ， 为 K-means 算法 提供 选取 初始 


点 的 依据 ， 
在 运行 时 


通过 实验 证 明 Kd 树 数 所 
辣 和 聚 类 准确 性 的 有 效 提高 ，; 
的 建树 速度 随 着 数据 量 的 增 大 会 进入 } 


率 还 待 进一步 提高 。 


Ai 51 
uu 


后 的 K-means 算法 流程 如 图 4 
法 ;准确 地 选取 
〖 立 点 数据 或 中 心 点 过 于 


居 集 分 区 帮助 K-means 
中 心 点 ， 避 免 了 随机 选取 出 现 


EEH, 


站 的 Kd Bi 


AR 
来 改善 K-means 原始 随机 选 


然而 Kd 树 本 身 较 


行 预 处 理 


Kd PA 
Ha 
ERIX K-means 算法 


因此 其 建树 效 
为 高 效 准确 对 大 规模 数据 进行 聚 类 ， 
实现 了 在 Spark 环境 1 


马 


据 


的 


Ej 3: 32 4p 2H LE 


样 以 及 最 大 最 小 距离 等 方法 预先 选取 天 个 聚 类 中 
心 ， 作 为 K-means 算法 的 一 部 分 输入 ， 改 变 K-means 算法 随 
机 选取 初始 中 心 点 的 过 程 ， 达 到 提升 算法 稳定 性 的 


的 。 
类 Canopy 算法 和 最 大 最 小 距离 算法 对 


K-means 算法 的 改进 。 


3.3 基于 Canop 


y 预 聚 类 算法 的 改进 方法 


Canopy 算法 


是 由 McCallum62 在 2000 年 提出 的 无 监督 


预 聚 类 算法 ， 适 


于 高 维度 的 大 数据 预 聚 类 分 析 ， 通 常用 做 


K-means 算法 预 处 理 步 又 , 避免 


其 初始 中 心 点 选取 的 盲目 性 。 
| 


Canopy 算法 可 以 通过 简单 的 距离 计算 方法 将 初始 数据 集 划 


分 为 多 个 不 完全 习 
噪声 点 或 孤立 点 ， 


RERIT A Canopy, 很 好 地 崭 除 数据 集中 的 
其 步骤 [3 如 下 : 


a) 如 图 5 所 示 ， 初 始 距 离 闽 值 为 7 ,7 >T), RE 
数据 集 的 数据 存 入 list R (候选 中 心 点 ) 中 ,并 从 list 中 随机 
选择 数据 点 C ， 由 式 〈1) 计算 List 中 其 他 数据 点 5 与 之 


间 的 距离 dn; 
b)Æ da «T, 


则 将 数据 点 从 list 中 移 除 ， 对 于 满足 <4ds < 五 的 数据 ， 重 
新 计算 出 新 的 中 心 点 
划分 该 数据 所 属 的 类 ; 

c) 不 断 循环 以 上 操作 ， 直 到 list 集中 元 素 为 空 ， 


pun 


的 距离 ， 减 少 了 上 


可 提高 算法 的 计算 效率 ， 然 ; 
RK Canopy 算法 的 距离 计算 次 数 和 比较 次 数 直线 上 升 ， 导 


则 将 其 划分 到 一 个 canopy rH, Hr di «n, 


根据 数据 与 新 中 心 点 之 间 的 距离 重新 


算法 结 


Canopy 算法 每 次 仅 比 较 同 一 区 域内 数据 与 中 心 点 之 间 


t 较 次 数 从 而 大 大 降低 了 聚 类 的 运行 时 间 ， 


近年 来 数据 的 爆炸 式 增加 ， 预 


致 算法 运行 速度 无 法 满足 实 上 


秆 性 需求 。 


为 了 提高 K-means 算法 的 稳定 性 和 准确 性 ， 解 决 初始 下 
值 和 初始 中 心 点 的 问题 ，Zhang 等 人 6563] 将 一 种 具有 密度 参数 
的 Canopy 算法 用 做 K-means 的 预 处 理 过 程 ， 其 输出 结果 作 


为 K-means 算法 的 簇 数 和 初始 中 心 点 ， 经 实验 证 明寺 


Canopy 的 K-mea 


ns 算法 相 较 于 传统 K-means 算法 更 高 
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的 聚 类 精度 ， 并 且 对 于 噪声 数据 有 了 很 好 的 处 理 能 力 ; RIG 
程 等 人 [5 在 Spark 并 行 计 算 框架 下 ， 引 入 Canopy 算法 消除 
了 K-means 算法 初始 KK 值 的 不 确定 性 , 并 通过 最 大 最 小 距离 
算法 优化 了 K-means 算法 中 初始 中 心 点 的 选择 过 程 ， 验 证 了 
改进 后 的 K-means 算法 在 大 数据 环境 下 的 稳定 性 、 准 确 性 以 
及 计算 效率 。 


3.4 最 大 最 小 距离 算法 


然而 ，Canopy 算法 在 
7,,T, 等 初始 值 ， 具有 很 大 


图 5 Canopy 算法 原理 示意 
Fig.5 Schematic diagram of Canopy algorithm 


ER] 


X PRH np nis Lc e ELE A BRL EE 


的 随机 性 ， 对 算法 最 终结 果 的 准确 


性 和 效率 都 有 着 巨大 的 影响 ， 为 更 好 地 应 用 Canopy 算法 ， 


很 多 学 者 将 最 大 最 小 距离 算法 与 Canopy 算法 进行 结合 ， 对 


Canopy H 
果 。 


P 心 点 的 选取 和 设置 进行 了 优化 ， 取 得 了 不 错 的 结 


最 大 最 小 距离 算法 (the maximum and minimum distance 


method ) 是 K 


atsavounidi 等 人 655 于 1994 年 提出 的 针对 聚 类 算 
法 中 初始 聚 类 中 心 点 的 选择 方法 之 一 ， 其 核心 思想 是 尽 可 能 


选择 距离 已 有 中 心 点 较 远 的 点 来 避免 选取 中 心 点 不 当 的 问 


题 ， 算 法 步骤 如 下 : 


DMAE N 个 数据 的 数据 集中 任 一 选取 一 个 数据 点 作为 


l'a 


第 一 个 聚 类 中 心 点 C ， 


选取 距离 O 最 远 的 数据 点 作为 第 二 


个 聚 类 中 心 点 C, ， 两 点 之 间距 离 计算 采用 式 〈1); 


b) 计 算 各 个 样本 到 各 个 聚 类 中 心 的 距离 4; ， 并 判断 式 


(3) ÆT 


A 


不 断 循环 此 步骤 ， 直 到 不 再 
c) 根 据 上 述 得 到 


据点 分 到 距离 最 近 的 类 CH 


成 立 


d, = max[min[d;, d;,,.... dx]] > 6* || c -c || (3) 


的 聚 类 


其 中 9 为 比例 系数 ， 若 成 立 ， 则 “ = 交 ， 即 闷 成 为 聚 类 中 心 ， 


有 新 的 聚 类 中 心 出 现 ; 


FP 心 点 ) 中 去 。 


中 心 {6,6,…04} ,将 数据 集中 的 数 


然而 最 大 最 小 昌 
点 选取 过 程 较为 耗 时 


E 离 算法 在 面 对 大 规模 数据 时 会 出 现 中 心 
[的 问题 ， 大 大 影响 了 算法 的 执行 效率 ， 


为 此 在 K-means 算法 运行 时 充分 借鉴 Spark 内 存 计算 的 优势 ， 
提升 算法 的 执行 效率 。 
众多 学 者 将 最 大 最 小 距离 算法 运用 到 K-means 算法 的 初 


始 过 程 中 ， 
K-means 算法 ， 应 月 
出 天 个 中 心 点 人 


Li 


在 Spark 


中 心 点 的 选取 与 设置 
在 MapReduce Jf fT H 
明 ， 该 算法 在 时 间 、 


如 文献 [56] 实 现 了 基于 最 大 最 小 距离 算法 的 
最 大 最 小 距离 对 数据 集 进行 预 处 理 ， 输 
FE 为 K-means 的 输入 , 提高 了 K-means 算法 的 
性 能 ， 并 且 改 进 了 最 大 最 小 距离 算法 不 能 处 理 噪 声 数 据 的 问 


Bi; Mao 等 人 5 通过 引入 最 大 最 小 距离 算法 对 Canopy. 算法 
进行 优化 ,并 为 适应 大 数据 的 应 用 场景 


Z= 


并 行 计算 框架 


| 算 框 架 对 算法 进行 
准确 怕 


行 加 速 , 实验 表 


E 等 方面 都 有 明显 提高 ;文献 [54] 


， 通 过 最 大 最 小 距离 算法 优化 了 


K-means 算法 中 初始 中 心 点 的 选择 过 程 ， 提 高 了 K-means $ 
法 在 大 数据 环境 下 的 稳定 性 、 准 确 性 以 及 计算 效率 。 
3.5 基于 元 启发 式 的 K-means 算法 改进 

近年 来 ， 元 启发 式 优化 算法 ， 如 遗传 算法 (Genetic 
Algorithm, GA) 58、 禁 鼠 搜 索 算 法 (tabu search, TS) 5% 
粒子 群 优化 算法 (Particle Swarm Optimization, PSO) 90-6 
等 ， 由 于 其 通用 性 、 简 单 性 、 鲁 棒 性 强 以 及 适合 并 行 处 理 等 
优点 得 到 了 广泛 应 用 。 将 启发 式 算法 的 思想 贯穿 到 K-means 
算法 的 整个 过 程 中 ， 解 决 了 K-means 算法 易 陷 入 局 部 最 优 的 
缺陷 ， 减 少 了 对 初始 中 心 点 的 依赖 ， 提 高 了 聚 类 结果 的 稳定 
性 和 准确 性 。 下 面 详细 介绍 基于 Tabu Search 和 粒子 群 优 化 的 
K-means 算法 改进 方法 。 
3.5.1 禁忌 搜索 算法 

禁忌 搜索 算法 是 一 种 用 来 跳 脱 局 部 最 优 解 找到 全 局 最 优 
解 的 搜索 方法 ， 它 主要 思想 是 使 用 禁忌 列表 限制 数据 选择 次 
数 ， 从 而 避免 算法 陷入 局 部 最 优 。 禁 忌 搜索 算法 的 流程 如 图 
6 所 示 ， 从 一 个 随机 的 初始 中 心 点 出 发 ， 根 据 指定 的 搜索 策 
略 以 及 各 个 参数 ， 在 当前 初始 中 心 点 的 邻 域内 寻找 新 的 聚 类 
中 心 点 ， 不 断 寻 找 使 得 聚 类 结果 最 优 的 聚 类 中 心 ， 直 到 当前 
聚 类 中 心 不 再 改变 或 到 达 最 大 人 迭代 次 数 为 止 。 


E 


给 定 初始 参数 ， 随 机 产生 
MaR, PERENE 


Y: 
结束 搜索 ， 输 出 优化 结果 


N 


根据 当前 解 确 定 邻 域 以 及 
候选 列表 


Y 将 满足 特赦 准则 的 解 作为 当前 
是 否 满足 特赦 准则 > 解 ， 其 对 应 的 对 象 替 换 最 早 计 入 
禁忌 表 的 对 象 ， 更 新 最 优 状 态 


N 


候选 列表 禁忌 属性 判断 


y 
将 非 禁 忌 对 象 对 应 的 最 佳 解 作为 
la 当前 解 ， 并 用 该 对 象 替 换 最 早 进 
入 禁忌 表 的 对 象 


图 6 禁忌 搜索 算法 流程 图 
Fig.6 Flow chart of Tabu search algorithm 

禁忌 搜索 算法 优化 能 力 较 好 ， 但 也 存在 计算 复杂 度 高 、 
耗 时 较 长 的 问题 , 为 适用 于 当前 大 数据 应 用 的 需求 , 在 Spark 
框架 下 对 算法 的 两 个 过 程 进行 了 并 行 ， 分 别 是 数据 分 配给 最 
近 中 心 点 的 迭代 过 程 和 更 新 中 心 点 的 过 程 ， 大 大 提高 了 算法 
运行 效率 和 可 扩展 性 ， 同 时 将 禁忌 搜索 算法 的 优化 思想 应 用 
到 K-means 算法 中 ,通过 禁忌 列表 限制 算法 频繁 选择 同一 数 
据点 而 避免 其 陷入 局 部 最 优 的 情况 ， 再 通过 邻 域 和 候选 表 设 
计 ， 使 得 算法 的 初始 中 心 点 选择 范围 更 为 全 面 ， 实 现 对 
K-means 算法 的 聚 类 精度 和 稳定 性 的 提高 。 
目前 ， 文 献 [62,63] 通 过 使 用 禁忌 搜索 算法 对 K-means 算 
法 初始 中 心 点 进行 优化 ， 相 较 于 传统 K-means 提高 了 聚 类 结 
果 的 准确 度 并 克服 了 K-means 算法 易 陷 入 局 部 最 优 的 缺陷 ， 
但 在 计算 时 间 等 方面 改进 不 大 , Lu SAE Spark 环境 下 引 
入 禁忌 搜索 算法 ， 并 将 最 大 最 小 距离 算法 与 禁忌 搜索 算法 相 
结合 ， 优 化 初始 中 心 点 的 同时 提高 了 算法 的 运行 效率 。 
3.5.2. 粒子 群 优化 

粒子 群 优化 算法 是 由 Kennedy 和 Eberhart 通过 研究 鸟 群 
疯 食 过 程 而 提出 的 一 种 群体 智能 优化 算法 ， 其 基本 思想 '55] 


K 


个 体 之 间 的 协作 和 信息 共享 来 寻找 问题 的 最 优 
解 ， 首 先 初 始 化 一 群 随机 粒子 〈 即 问题 的 解 )， 同 时 初始 化 每 
， 每 个 粒子 通过 不 断 迭 代 更 新 


粒子 的 速度 、 位 置 等 参数 人 
度 和 位 置 等 找到 最 
虽然 粒子 群 优化 算法 


局 优化 能 力 较 强 ， 然 而 处 理 现 阶 
居 规 模 时 仍 显得 力不从心 ， 为 提高 算法 处 理 大 规模 
据 的 能 力 ,依托 Spark 分 布 式 计算 框 


: Spark 环境 下 K-means 初始 中 心 点 优化 研究 综述 


算法 在 处 理 大 规模 数 # 
ARMIR RRKT 
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居 时 仍 面临 着 巨大 的 挑战 。 


a) 现 有 已 改进 K-means 算法 优 


本 文中 介绍 的 
K-means 算法 的 了 
理 大 规模 数据 时 


行 时 间 较 长 ， 


生 ， 多 个 节点 并 行 迭 代 更 新 初始 解 ， 提 高 算法 的 运 
行 效率 ; 同时 将 粒子 群 优化 算法 引入 到 K-means 算法 中 优化 
K-means 算法 的 整个 过 程 ， 有 效 提高 了 K-means 算法 


当前 许多 学 者 已 经 
Lin 等 人 (9 通过 结合 粒子 群 优 
算法 寻找 初始 聚 类 中 心力 


而 进行 了 深入 研究 ， 如 
化 和 多 类 合并 改进 KK-means 算 
[3E | K-means 算 
f 实现 了 育 类 算法 的 最 
F 明 杰 等 人 [7 在 Spark 环境 下 ， 利 用 粒子 群 优化 算 
局 搜索 能 力 ， 得 到 初 
的 迭代 计算 能 力 将 其 并 行 化 ,提升 了 K-means 
里 速度 ， 缩 短 了 算法 的 整体 运行 时 间 。 然 而 ， 
索 能 力 较 差 、 搜 索 精 度 不 高 且 易 陷 
| 文 凯 569 则 利用 最 优化 问题 对 
FF 台 上 将 改进 的 粒子 群 优化 
18] K-means 算法 中 ， 提 高 了 算法 的 收敛 速度 以 及 运 


PSO 算法 也 存在 着 


优化 算法 进行 改进 ， 并 在 Spark 7| 


等 方法 对 粒子 群 优化 算法 进 


元 启发 式 算法 还 包括 模拟 退火 算法 、 
正 群 算法 、 人 工蜂 群 算法 以 及 人 工 让 
近 两 年 来 也 有 不 少 学 者 引入 这 些 算法 来 提高 K-means 算 
El-Shorbagy 等 人 [7 提出 一 种 混合 算法 ， 充 分 
针对 K-means 聚 类 过 程 中 
jk f K-means 算法 的 
N 等 人 [2 将 遗传 算法 与 K-means 结合 , 利用 


搜索 优势 确定 K-means 的 初 
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类 中 心 ， 所 提出 的 方法 在 准 
WE K-means 算法 要 高 ， 文 献 [73] 则 在 Spark ^F & | 
多 化 算法 作为 预 处 理 步骤 ， 返 


蝙蝠 算法 和 萤火虫 算法 等 
最 佳 中 心 点 作为 K-means 的 输入 。 

于 这 些 算法 易 过 早 陷入 后 
过 程 耗 时 较 长 等 他 


chinaXiv 


点 , 而 人 工蜂 群 


它们 的 原理 并 
K-means 算法 时 
积 法 等 改进 方法 来 避免 该 现象 


各 在 以 下 几 个 方 


四 展开 : 


第 37 卷 第 3 期 


结合 目前 的 


化 。 现 有 


的 改进 算法 ， 如 


发 式 算法 和 Canopy HIRS, 虽然 克服 了 
心 点 带 来 的 不 稳定 等 现象 ， 但 处 


于 这 些 算法 的 局 限 性 和 复杂 性 ， 导 致 运 


HIRAM 


己 有 的 改进 算法 ， 需 深入 了 解 


| 对 最 大 最 小 
SE TEE: 


E 离 算法 优化 
f 提 出 最 大 距离 
的 发 生 ， 进 一 步 提 高 K-means 


算法 的 性 能 。 


陷 进 行 改 进 ， 并 
步 提高 K-means 
K-means 算法 性 和 


化 编程 ， 进 一 


当前 已 引入 算法 
Spark 内 存 计算 框架 的 


的 基础 上 对 其 缺 
性 对 算法 并 行 


b) 将 更 多 


式 算 法 人 工 神 


网 络 算法 等 ) 迁移 到 


FH H o 


算法 的 时 效 性 ， 是 未 来 提高 


E 的 算法 设计 优化 思想 (如 元 启发 
K-means 算法 初始 阶段 


中 。 目 前 改进 的 
需要 对 数据 集 预 处 型 


K-means 算法 ， 大 多 是 分 阶 
达到 改进 


这 样 的 改进 方法 往往 


于 在 实际 应 用 中 的 适 


段 进 行 ， 即 首先 
K-means 算法 的 目的 ， 但 
立 性 低 等 缺点 难 


以 得 到 广泛 应 用 。 
局 优化 方法 的 核心 


据 K-means 算法 的 特点 进行 调整 ， 从 而 将 其 J] 
Ay. n] BA: K-means 算法 的 聚 类 效果 
过 程 中 产生 新 的 方法 或 思路 。 


到 K-means 算法 
不 佳 等 问题 ， 并 


坚决 这 个 问题 的 思路 是 : 深入 理解 其 他 全 
想 以 及 针对 具体 问题 处 


理 的 模式 ， 再 根 


天 化 算法 应 | 


N 


之 


所 以 ， 在 深入 理 
其 优化 思想 融入 到 K-means 算法 中 ， 是 未 来 奸 


法 。 当 使 用 K-means Xj 
的 影响 ， 无 法 判 员 


的 度量 方法 无 法 有 
结果 度量 方法 入 手 , 而 
时 ， 避 免 中 心 点 选取 陷入 噪声 点 中 。 目 前 有 妆 
余弦 距离 选取 初始 


局 优化 算法 的 基础 上 ， 如 何 将 


c) 面 对 聚 类 效果 不 稳定 现象 研究 新 的 初始 中 心 点 判断 方 
居 聚 类 时 ， 受 初始 中 ， 
是 否 会 影 


I 断 这 一 问题 。 


响 聚 类 结果 ， 即 现 有 
因此 ， 是 否 可 以 从 聚 类 
新 的 度量 方法 ， 在 选取 初始 中 心 点 


要 的 研究 方向 


必 点 随机 选取 


者 提出 如 基于 


方案 ， 从 而 进 


与 证 明 ， 既 需要 充分 和 
验证 等 ， 这 也 是 一 个 重要 娄 

gd) 基于 内 存 计算 相 
K-means 在 对 大 规模 数据 聚 类 时 


高 算法 性 能 。 然 而 关 了 


敛 速度 快 、 需 控制 参数 少 、 局 部 寻 优生 


] K-means 算法 中 ， 如 Tran 
算法 进行 改进 ， 在 K-means 每 次 迭代 都 利 月 
FPF 心 点 进行 优化 ， 再 利用 K-means $2135 
心 点 ， 提 高 了 聚 类 算法 各 方面 的 1 


人 工蜂 群 算法 对 


bp 最 优等 缺点 ， 因 上 
且 为 提高 算法 的 适用 怕 
UL t de IIBER d 


的 不 同 改进 方法 和 算法 


EX, K-means 算法 在 机 
优势 ， 受 到 了 广泛 关注 ， 但 
在 处 理 大 规模 数 ] 
判 约 算 法 广泛 应 用 的 
K-means 算法 聚 类 结果 不 稳定 现 


[器 学 习 领 域 展 现 了 其 
于 随机 初始 化 聚 类 中 心 点 ， 

会 出 现 聚 类 结果 不 稳定 性 和 算法 效率 低 
因素 。 本 文 总 结 了 解决 


究 工 作 ， 但 K-means 


进行 加 速 。 所 以 ， 对 


究 方 向 。 
Spark 的 K-means 并 行 化 编程 。 


心 点 的 方法 ， 改 进 了 初始 中 心 点 的 选取 
FF 度量 方法 的 提出 
理 与 解释 ， 还 需要 完整 的 实验 


算 无 法 快速 完成 ， 需 要 借助 现 有 的 内 存 计算 术 


Jz H 


等 其 部 署 适 用 


E 疆 全 


| K-means 算法 的 改进 除了 
处 理 过 程 之 外 ， 还 需要 针对 K-means $1135 


2H A 


已 有 很 多 学 者 将 改进 后 


为 更 多 的 大 规模 数 提 


参考 文献 : 


有 有 重要 价值 的 


提供 了 有 效 支撑 ， 


， 通 常 由 于 其 大 量 的 迭代 计 
E 架 对 算法 过 程 
改进 算法 本 身 
尺 计 算 的 特点 ， 
JRIH Spark HEX 


上 进行 。 目 前 ， 


行 化 编程 ， 


Spark 特性 


此 这 也 是 一 个 


[1] f, 李宁 ， 罗 文 娟 , 等 . 大 数据 下 的 机 器 学 习 算 法 综述 [D] 模式 


识别 与 人 工 智 能 ， 


2014, 27(4): 327-336. (He Qing, Li Ning, Luo 


Wenjuan, et al. A survey of machine learning algorithms for big data [J]. 

Pattern Recognition and Artificial Intelligence, 2014, 27(4): 327-336. ) 
[2] EA, 吴 玲 达 , RAM. 数据 挖 据 中 的 聚 类 算法 综述 [JU]. 计算 机 应 

用 研究 , 2007, 24(1): 10-13. (He Ling, Wu Lingda, Cai Yichao. Survey 


of clustering algorithms in data mining [J]. Application Research of 


Computers, 2007, 24(1): 10-13. ) 


录用 定稿 


[3] Bizer C, Boncz P, Brodie M L, et al. The meaningful use of big data: 
four perspectives-four challenges [J]. ACM SIGMOD Record, 2012, 40 
(4): 56-60. 

[4] Zaharia M, Chowdhury M, Franklin M J, et al. Spark: cluster 
computing with working sets [C]//Proc of USENIX Conference on Hot 
Topics in Cloud Computing.Berkeley, CA:USENIX Association, 2010: 
10-10. 

[5] Zaharia M, Chowdhury M, Das T, et al. Resilient distributed datasets: a 
fault-tolerant abstraction for in-memory cluster computing [C]//Proc of 
USENIX Conference on Design and 
Implementation.Berkeley,CA: USENIX Association, 2012: 2. 

[6] Shvachko K, Kuang H, Radia S, et al. The Hadoop distributed file 


Networked Systems 


system[C]//Proc of IEEE Symposium on MASS Storage Systems and 
Technologies.Washington DC: IEEE Computer Society, 2010: 1-10. 

[7] Dean J, Ghemawat S. MapReduce: simplified data processing on large 
clusters [J]. Communications of the ACM, 2008, 51(1): 107-113. 

[8] Lin Xiyqin, Wang Peng, Wu Bin. Log analysis in cloud computing 
environment with Hadoop and Spark[C]//Proc of IEEE International 
Conference on Broadband Network & Multimedia Technology. 
Piscataway,NJ:IEEE Press, 2014: 273-276. 

[9] Wan Hu, Xu Yuanchao, Yan Junfeng, et al. Mitigating log cost through 
non-volatile memory and checkpoint optimization [J]. Journal of 
Computer Research and Development, 2015, 52(6): 1351-1361. 

[10] Liao Bin, Yu Jiong, Sun Hua, et al. Energy-efficient algorithms for 
distributed storage system based on block storage structure 
reconfiguration [J]. Journal of Computer Research & Development, 
2015, 48(1): 71-86. 

[11] Meng Xiangrui, Bradley J, Yavuz B, et al. MLlib: machine learning in 
Apache Spark [J]. Journal of Machine Learning Research, 2015, 17(1): 
1235-1241. 

[12] MLIib[DB/OL]. http://spark. apache. org/mllib/ 

[13] Fatta G D, Pettinger D. Dynamic load balancing in parallel KD-tree 
k-means [C]//Proc of IEEE International Conference on Computer and 
Information Technology. Piscataway,NJ:IEEE Press, 2010:2478-2485. 

[14] Kusuma I, Ma'Sum M A, Habibie N, et al. Design of intelligent 
K-means based on spark for big data clustering [C]//Proc of 
International Workshop on Big Data and Information Security. 
Piscataway,NJ:IEEE Press, 2017: 89-96. 

[15] Wang Bowen, Yin Jun, Hua Qi, et al. Parallelizing K-means-based 
clustering on Spark [C]//Proc of International Conference on Advanced 
Cloud and Big Data. Piscataway,NJ:IEEE Press, 2017: 31-36. 

[16] Meng Xiangrui. Spark SQL: Relational data processing in Spark 
[C]//Proc of ACM SIGMOD International Conference on Management 
of Data. New York: ACM Press, 2015: 1383-1394. 

[17] Xin R S, Rosen J, Zaharia M, et al. Shark: SQL and rich analytics at 
scale [C]//Proc of ACM SIGMOD International Conference on 
Management of Data. New York: ACM Press, 2013: 13-24. 

[18] Gonzalez J E, Xin R S, Dave A, et al. GraphX: graph processing in a 
distributed dataflow framework [C]//Proc of USENIX Conference on 
Operating Systems Design and Implementation.Berlekey,CA: USENIX 
Association, 2014: 599-613. 

[19] Zaharia M, Das T, Li Haoyuan, et al. Discretized streams: fault-tolerant 
streaming computation at scale [C]//Proc of the 24th ACM Symposium 
on Operating Systems Principles.2013: 423-438. 

[20] Hindman B, Konwinski A, Zaharia M, et al. Mesos: a platform for 


fine-grained resource sharing in the data center [C]//Procs of the 8th 


行 艳 妮 ， 等 : Spark 环境 下 K-means 初始 中 心 点 优化 研究 综述 


USENIX Conference on 
Implementation. Berlekey,CA: USENIX Association, 2010: 429-483. 


Networked 


Systems 


Design and 


[21] Chen Jianguo, Li Kenli, Tang Zhuo, et al. A parallel random forest 
algorithm for big data in a spark cloud computing environment [J]. 
IEEE Trans on Parallel & Distributed Systems, 2017, 28 (4): 919-933. 

[22] 孙 吉 贵 , 刘 杰 ,， REF. 聚 类 算法 研究 I]. 软件 学 报 ，2008，19(]): 
48-61. (Sun Jigui, Liu Jie, Zhao Lianyu. Clustering Algorithms 
Research [J]. Journal of Software, 2008, 19(1): 48-61. ) 

[23] Jain A K, Murty M N, Flynn P J. Data clustering: a review [J]. ACM 
Computing Surveys, 1999, 31 (3): 264-323. 

[24] 行 小 帅 ， 潘 进 ， 焦 李 成 . 基于 免疫 规划 的 K-means 聚 类 工法 [J]. 计 
算 机 学 报 ,2003,26(5): 605-610. (Xing Xiaoshuai, Pan Jin, Jiao Licheng. 
A novel K-means clustering based on the immune programming 
algorithm [J]. Chinese Journal of Computers, 2003,26(5): 605-610. ) 

[25] Mahajan M, Nimbhorkar P, Varadarajan K. The planar K-means 
problem is np-hard [C]//Proc of International Workshop on Algorithms 
and Computation. Berlin:Springer,2009. 

[26] Huang Zhexue. A fast clustering algorithm to cluster very large 
categorical data sets in data mining[C]//Proc of SIGMOD Workshop on 
Research Issues on Data Mining and Knowledge Discovery. 1997. 
146-151. 

[27] 万 静 ， 张 超 , 何 云 斌 ,等 .可 变 网 格 优化 的 K-means 聚 类 方法 [I]. 小 
型 微型 计算 机 系统 , 2018, 39(1): 95-99. (Wan Jing, Zhang Chao, He 
Yunbin, et al. K-means clustering method based on variable grid 
optimization [J]. Journal of Chinese Computer Systems, 2018, 39(1): 
95-99. ) 

[28] RHE, S Exp. XAR ACE dedo do P uz E AS Ag K-means LE]. 
计算 机 工程 与 应 用 ，2018，54(7):152-158. (Jia Ruiyu, Li Yugong. 
K-means algorithm of clustering number and centers self-determination 
[J]. Computer Engineering and Applications, 2018, 54 (7): 152-158. ) 

[29] KR, AEG, KAA, 等 . 基于 Hash 改进 的 k-means 算法 并 行 化 设 
计 D]. 计算 机 工程 与 科学 , 2016, 38(10): 1980-1985. (Zhang Bo, Xu 


Weihong, Chen Yuantao, et al. A K-means clustering algorithm 
parallelization design based on Hash [J]. Computer Engineering & 
Science, 2016, 38(10): 1980-1985. ) 

[30] Pf] S, 尉 永 清 , 任 敏 , 等 . 基于 营 火 虫 优化 的 加 权 K-means 算法 
D]. 计算 机 应 用 研究 ，2018，35(2): 466-470. (Chen Xiaoxue, Wei 
Yongqing, Ren Min, et al. Weighted K-means clustering algorithm 
based on firefly algorithm [J]. Application Research of Computers, 
2018, 35(2): 466-470. ) 

[31] Duan Yanling, Liu Qun, Xia Shuyin. An improved initialization center 
k-means clustering algorithm based on distance and density [C]//Proc of 
American Institute of Physics Conference Series. 2018. 

[32] Qian Shenyi, Liu Huihui, Li Daiyi. Research and application of 
improved K-means algorithm in text clustering [Cl]//Proc of 
International Conference on Physics, Computing and Mathematical 
Modeling. Computer Science and Engieneering. 2018. 

[33] Zhu Erzhou, Li Peng, Ma Zhujuan, et al. Effective and optimal 
clustering based on new clustering validity index [C]//Proc of the 22nd 
IEEE International Conference on Computer Supported Cooperative 
Work in Design.2018: 529-534. 

[34] Nagul S, Kumar R K. An effective K-means approach for imbalance 
data clustering using precise reduction sampling [J]. International 
Journal of Computer Sciences and Engineering. 2018, 6(3): 65-70. 

[35] Alexandrov A, Bergmann R, Ewen S, et al. The Stratosphere platform 
for big data analytics [J]. The VLDB Journal, 2014, 23(6): 939-964. 


[36] 江 小 平 ， 李 成 华 ， 向 文 ， 等. K-means 聚 类 算法 的 MapReduce 并 行 化 
实现 [I]. 华中 科技 大 学 学 报 : 自 然 科 学 版 ，2011，39(s1): 120-124. 
(Jiang Xiaoping, Li Chenghua, Xiang Wen, et al. Parallel implementing 


K-means clustering algorithm using MapReduce programming mode [J]. 


Journal of Huazhong University of Science and Technology:Social 
Science Edition, 2011, 39(s1): 120-124. ) 

[37] Zhang Dongbo, Shou Yanfang. An improved parallel K-means 
algorithm based on cloud computing [C]//Proc of International 
Symposium on Intelligence Computation & Applications. Singapore: 
Springer, 2015. 

[38] Li Chengfei, Tian Guo, Cai KunPeng, et al. Improved K-means based 
on Flink platform and its application in e-commerce big data [C]//Proc 
of Chinese Automation Congress. 2018. 

[39] Kusuma I, Ma'Sum M A, Habibie N, et al. Design of intelligent 
K-means based on spark for big data clustering [C]//Proc of 
International Workshop on Big Data & Information Security. 2017. 

[40] Yuan Tianwei, Xie Xiaolan, et al. Design of social security data 
processing and analysis platform based on Spark [C]// Proc of the 3rd 
International Conference on Intelligent Information Processing.New 
York: ACM Press, 2018: 172-177. 

[41] Shobanadevi A,Maragatham G. Studying the performance of clustering 
techniques for biomedical data using spark [C]//Proc of International 
Conference on Intelligent Sustainable Systems. 2017: 58-65. 

[42] Gopalani S, Arora R, Gopalani S, et al. Comparing Apache Spark and 
MapReduce with performance analysis using K-means [J]. International 
Journal of Computer Applications, 2015, 113(1): 8-11. 

[43] Hai Mo, Zhang Yuejing, Li Haifeng, A performance comparison of big 
data processing platform based on parallel clustering algorithms [J] , 
Procedia Computer Science, 2018, 139: 127-135. 

[44] 陈 平 华 ， 陈 传 瑜 . 基于 满 二 又 树 的 二 分 K-means 聚 类 并 行 推荐 算法 
DJ]. 计算 机 工程 与 科学 , 2015, 37(8): 1450-1457. (Chen Pinghua, Chen 
Chuanyu. A bisecting K-means clustering parallel recommendation 
algorithm based on full binary tree [J]. Computer Engineering & 
Science, 2015, 37(8): 1450-1457.) 

[45] 张 晓 云 , 刘 东 . 基于 四 又 树 K- 均 值 聚 类 算法 的 软件 故障 预测 算法 研 
5L DU]. 计算 机 应 用 研究 ，2014, 31(9): 2732-2735. (Zhang Xiaoyun, 
Liu Dong. Software fault prediction based on quad tree K-means 
clustering algorithm [J]. Application Research of Computers, 2014, 31 
(9): 2732-2735. ) 

[46] Qi Hui, Di Xiaogiang, Li Jinging, et al. Improved K-Means Algorithm 
and Its Application to Vehicle Steering Identification [C]//Proc of 
International Conference on Advanced Hybrid Information Processing. 
Cham: Springer, 2017. 

[47] Bentley J L. Multidimensional divide-and-conquer [J]. Communications 
of the ACM, 1980, 23(4): 214-229. 

[48] Tiwari S, Solanki T, Tiwari S, et al. An optimized approach for 
K-means clustering [C]// Foundation of Computer Science, 2013: 5-7. 

[49] Redmond S J, Heneghan C. A method for initialising the K-means 
clustering algorithm using kd-trees [J]. Pattern Recognition Letters, 
2007, 28(8): 965-973. 

[50] Kumar K M, Reddy A R M. An efficient K-means clustering filtering 
algorithm using density based initial cluster centers [J]. Information 
Sciences, 2017, 418-419. 

[531] 8, & Z. RDD 上 扩展 索引 层 优化 的 分 布 式 区 -means 算法 [J/OL]. 
计算 机 工程 与 应 用 .[2018-11-22]. http://kns. cnki. net/kcms/detail/11. 
2127. TP. 20180515. 1558. 002. html. (Ma Jing, Li Li. Optimization of 


行 艳 妮 ， 等 : Spark 环境 下 K-means 初始 中 心 点 优化 研究 综述 


tT 
第 37 卷 第 3 期 


distributed K-means algorithm with RDD-based extended index layer 
[J]. Computer Engineering and Applications. [2018-11-22]. ) 

[52] Mecallum A. Efficient clustering of high-dimensional data sets with 
application to reference matching [C]//Proc of International Conference 
on Knowledge Discovery and Data Mining. 2000: 169-178. 

[53] Zhang Geng, Zhang Chengchang, Zhang Huayu. Improved K-means 
algorithm based on density Canopy [J]. Knowledge-Based Systems, 
2018, 145. 

[54] 徐 有 网 程 ， 王 诚 . K-means 算法 改进 及 基于 Spark 计算 模型 的 实现 [四 . 
南京 邮电 大 学 学 报 : 自 然 科学 版 .2017, 37(4): 113-118. (Xu Pengcheng, 
Wang Cheng. Improvement of K-means algorithm and implementation 
based on Spark computing model [J]. Journal of Nanjing University of 
Posts and Telecommunications:Natural Science Edition, 2017, 37(4): 
113-118. ) 

[55] Katsavounidis I, Jay Kuo C C, Zhang Z. A new initialization technique 
for generalized Lloyd iteration [J]. IEEE Signal Processing Letters, 
1994, 1 (10): 144-146. 

[56] Tzortzis G, Likas A. The MinMax K-means clustering algorithm [J]. 
Pattern Recognition, 2014, 47(7): 2505-2516. 

[57] &t3€. 基于 MapReduce 的 Canopy-Kmeans 改进 算法 [J]. 计算 机 
工程 与 应 用 ，2012，48(27): 22-26,68. (Mao Dianhui. Improved 
Canopy-Kmeans algorithm based on MapReduce [J]. Computer 
Engineering & Applications, 2012, 48 (27): 22-26,68. ) 

[58] Tang K S, Man K F, Kwong S, et al. Genetic algorithms and their 
applications [J]. IEEE Signal Processing Magazine, 1996, 13 (6): 22-37. 

[59] Glover F, Marti R. Tabu Search [J]. General Information, 1997, 106(2): 
221-225. 

[60] Gao Hao, Pun Chiman, Kwong S. An efficient image segmentation 
method based on a hybrid particle swarm algorithm with learning 
strategy [J]. Information Sciences, 2016, 369: 500-521. 

[61] Kennedy J, Eberhart R. Particle swarm optimization [C]//Proc of IEEE 
International Conference on Neural Networks, 2002: 1942-1948. 

[62] Cao Buyang, Glover F, Rego C. A Tabu search algorithm for cohesive 
clustering problems [J]. Journal of Heuristics, 2015, 21(4): 457-477. 

[63] Xu Zheng, Cao Buyang. A parallel Tabu search algorithm with solution 
space partition for cohesive clustering problems [M]// Algorithms and 
Architectures for Parallel Processing. Springer International Publishing, 
2015: 333-343. 

[64] Lu Yinhao, Cao Buyang, Rego C, et al. A Tabu search based clustering 
algorithm and its parallel implementation on Spark [J]. Applied Soft 
Computing, 2017, 63: 97-109. 

[65] 4 i, ZT. 一 种 改进 的 基于 粒子 群 的 聚 类 算法 D]. 计算 机 应 用 研 
究 , 2014, 31(9): 2597-2599. (Yang Zhi, Luo Ke. Improved clustering 
algorithm based on particle swarm optimization [J]. Application 
Research of Computers, 2014, 31(9): 2597-2599. ) 

[66] Lin Youcheng, Tong Nan, Shi Majie, et al. K-means optimization 
clustering algorithm based on particle swarm optimization and 
multiclass merging [J]. Computer Systems & Applications, 2014, 168: 
569-578. 

[67] HAA, HR, Whi. 基于 Spark 的 并 行 K-means 算 法 研究 [J]. 4x 
电子 学 与 计算 机 ，2018，35(5): 95-99. (Xu Mingjie, Wei Chengjian, 
Shen Hang. Research on K-means algorithm of Spark parallelization [J]. 
Microelectronics & Computer, 2018, 35(5): 95-99. ) 

[68] LI. 改进 的 粒子 群 算法 及 其 在 聚 类 算法 中 的 应 用 [D] 广州 : 广 
东 工 业 大 学 , 2017. (Liu Wenkai. Improved particle swarm optimization 


algorithm and its application in clustering algorithm [D]. Guangzhou: 


201901.00067v1 


chinaXiv 


Guangdong University of Technology, 2017. ) 

[69] FZE, KAŽ. 基于 动态 粒子 群 优化 与 K-means 聚 类 的 图 像 分 害 
JE AREF R, 2018, 41(10):164-168. (Li Lijun, Zhang 
Xiaoguang. Image segmentation algorithm based on dynamic particle 
swarm optimization and K-means clustering [J]. Modern Electronics 
Technique, 2018, 41(10): 164-168. ) 

[70] 班 俊 硕 , ER, MEME, 等. 改进 PSO 与 K- 均 值 聚 类 肤色 分 割 的 
人 脸 检 测算 法 D]. 激光 杂志 , 2017, 38(2): 82-86. (Ban Junshuo, Lai 
Huicheng, Lin Xianfeng, et al. Face detection method with improved 
PSO and K-means clustering based on skin color segmentation [J]. 
Laser Journal, 2017, 38(2): 82-86. ) 

[71] El-Shorbagy M A, Ayoub A Y, El-Desoky I M, et al. A novel genetic 


algorithm based K-means algorithm for cluster analysis[C]// Proc of 


ChinaXiv 合 作 期 刊 
第 37 卷 第 3 期 


行 艳 妮 ， 等 : Spark 环境 下 K-means 初始 中 心 点 优化 研究 综述 


International Conference on Advanced Machine Learning Technologies 
and Applications. Cham:Springer, 2018: 92-101. 

[72] Garg N, Gupta R K. Performance evaluation of new text mining method 
based on GA and K-means clustering algorithm [J]. Advances in 
Intelligent Systems and Computing,2018, 562: 23-30. 

[73] Santhi V, Jose R. Performance analysis of parallel K-means with 
optimization algorithms for clustering on Spark [C]/Proc of 
International Conference on Distributed Computing and Internet 
Technology. Berlin: Springer, 2018: 158-162. 

[74] Tran Dangcong, Wu Zhijian, Wang Zelin, et al. A novel hybrid data 
clustering algorithm based on artificial bee colony algorithm and 


K-means [J]. Chinese Journal of Electronics, 2015, 24(4): 694-701. 


